查看原文
其他

Prokka:快速原核基因组、宏基因组基因注释

宏基因组 宏基因组 2022-05-08

Prokka:快速原核基因组注释

Prokka: rapid prokaryotic genome annotation
Bioinformatics, [4.531]
2015-11-26  Method
DOI: https://doi.org/10.1093/bioinformatics/btu153
第一作者:Torsten Seemann
通讯作者:Torsten Seemann
其它作者:无
作者主要单位:
莫纳什大学,维多利亚生物信息学联盟,克莱顿;维多利亚生命科学计算计划生命科学计算中心,澳大利亚,卡尔顿(Victorian Bioinformatics Consortium, Monash University, Clayton 3800 and Life Sciences Computation Centre, Victorian Life Sciences Computation Initiative, Carlton 3053, Australia)

热心肠日报

细菌基因组、宏基因组基因注释流程Prokka
  1. Prokka是原核基因组注释的分析流程,包括基因鉴定、功能注释和基因组配套注释文件生成;
  2. 软件使用Prodigal鉴定编码基因位置,多种软件鉴定多类型非编码RNA,并采用多种方法和数据库依次对基因功能进行注释;
  3. 软件输入文件仅为fasta文件,依赖软件和数据库较多,但支持conda一键安装;
  4. 软件在功能注释步骤较耗时,通常细菌基因组在10分内完成,宏基因组耗时较长可将任务拆分计算;
  5. 结果输出10类文件,满足发表、提交NCBI所需的各类文件需求。
点评:Prokka是一个神奇的软件,只有一个作者,发表5年引用3千多次可谓神作。目前在细菌菌组、宏基因组领域有非常广泛的应用。

摘要

简介:当今DNA测序仪器的混样测序功能和高通量特点,已使细菌全基因组测序成为家常便饭。后续从头组装为重叠群已得到很好的解决。使用现有的基于Web和电子邮件的系统,可以缓慢地完成对这些重叠群上所有相关基因组特征进行注释的最后一步,但是这些不适用于敏感数据或集成到计算流程中。在这里,我们介绍Prokka,这是一种命令行软件工具,可以在典型的台式计算机上大约10分钟内完成细菌基因组草图的注释。它产生符合标准的输出文件,以供进一步分析或在基因组浏览器中查看。
可用性和实现:Prokka在Perl中实现,可以根据 http://vicbioinformatics.com/ 的开放源GPLv2许可免费获得。
联系方式:torsten.seemann@monash.edu

1 简介

1 INTRODUCTION
基因组注释是识别和标记基因组序列上所有相关特征的过程(Richardson和Watson,2012)。至少应包括预测的编码区及其推定产物的坐标,但希望超出此范围,应使用非编码RNA,信号肽等。
有各种各样的在线注释服务器(Stewart等,2009)。NCBI通过电子邮件提供原核基因组自动注释管道服务,周转时间以天为单位。RAST是用于注释细菌和古细菌基因组的Web服务器,它可以在一天内提供注释结果(Aziz等人,2008年),而xBASE2在数小时内就可以完成类似工作(Chaudhuri等人,2008年)。这些工具类别很有价值,但是在吞吐量或隐私至关重要的情况下它们没有用。
在这里,我们介绍Prokka,这是一种命令行软件工具,可以在任何Unix系统上安装。Prokka协调了一套现有的软件工具,以实现对基因组细菌序列的丰富而可靠的注释。在可能的情况下,它将利用多个处理核心,并且典型的细菌基因组可以在四核台式计算机上,在约10分钟内进行注释。它非常适合序列分析的迭代模型,并集成到基因组软件管道中。

2 描述

2 DESCRIPTION

2.1 输入

2.1 Input
Prokka要求以FASTA格式的预组装基因组DNA序列为输入文件。理想的输入是没有间隙的完整序列,但可以预期的是,典型的输入将是由de novo组装软件产生的一组支架序列。该序列文件是软件的唯一必需参数。

2.2 注释

2.2 Annotation
Prokka依靠外部特征预测工具来识别重叠群中基因组特征的坐标。表1中列出了这些工具,除Prodigal之外,所有工具均提供了坐标和适当的标签来描述功能。

表1 Prokka使用的功能预测工具

Table 1. Feature prediction tools used by Prokka
蛋白质编码基因注释分为两个阶段。Prodigal 鉴定候选基因的坐标,但没有描述推定的基因产物。预测基因编码的传统方法是将其与已知序列的大型数据库(通常在蛋白质序列水平上)进行比较,并转移最佳匹配的注释。
Prokka使用此方法,但以分层方式使用,从较小的可信任数据库开始,移至中等大小但特定领域的数据库,最后移至蛋白质家族的精选模型。默认情况下,以下一系列包含的数据库使用e值阈值10-6
  1. 用户提供的可选的带注释的蛋白质集。预计这些将是值得信赖的精选数据集,并将用作注释的主要来源。使用BLAST+ blastp搜索(Camacho等,2009)。
  2. UniProt中的所有细菌蛋白(Apweiler等人,2004)均具有真实的蛋白或转录本证据,并且不是片段。这是约16000种蛋白质,通常在大多数基因组中覆盖 > 50%的核心基因。使用BLAST +搜索。
  3. RefSeq中来自特定细菌属的完整细菌基因组的所有蛋白质。这捕获了特定域的命名,并且数据库的大小和质量各不相同,具体取决于该属的流行程度。BLAST+ 用于此目的,并且是可选的。
  4. 一系列隐马尔可夫模型表征数据库,包括Pfam(Punta等,2012)和TIGRFAM(Haft等,2013)。这是使用HMMER 3.1软件包中的hmmscan(Eddy,2011年)执行的。
  5. 如果找不到匹配项,请标记为“假设蛋白”。

2.3 输出

2.3 Output
软件生成10个输出文件,采用扩展名区别,见表2。

表2. 输出结果介绍

Table 2. Description of Prokka output files

3 结果

3 RESULTS
Prokka的设计既准确又快速。为了评估准确性,我们比较了Prokka,RAST和xBase2对高度精选的大肠杆菌K-12基因组的注释。所有方法都被告知是大肠杆菌基因组。表3显示,Prokka产生的总体注释优于RAST和xBase2。对于研究较少的基因组或原始基因组,此结果可能会有所不同。

表3. 比较大肠杆菌的注释结果

Table 3. Comparison of annotation of E.coli K-12 accession U00096.2
Prokka使用并行处理来减少多核计算机上的运行时间。最耗时的步骤是BLAST +和hmmscan,它们本地分析都支持多个CPU。但是,Prokka如果在数据子集上运行多个单个CPU线程,则效率更高,这是使用GNU并行实现的(Tange,2011年)。在我们的64核AMD Opteron服务器上进行的单基因组实验表明,线性加速最多可支持8个核,此后可获得亚线性增益。但是,对于更大的细菌元基因组数据集,可以观察到更多CPU的线性加速。在典型的四核台式计算机上注释大肠杆菌K-12基因组大约需要6分钟。
详者注:宏基因组数据量较大,动辄上千万的基因数量,有时需要将任务拆分后再运行,否则计算时间过长。

扩展阅读

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组  宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索  Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记  云协作 公众号
编程模板: Shell  R Perl
生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存